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是 旬 


ta A 
链 路 预测 作为 复杂 网 络 研究 中 的 一 个 重要 且 有 趣 的 问题 ， 算法 的 结果 指导 实验 ， 从 而 降低 实验 成 本 。 链 路 预测 
本 质 上 是 从 网 络 链 路 的 微观 层面 解释 网 络 结构 生成 的 原因 ， 进 ” ”社交 网 络 中 用 


此 规律 。 其 在 计算 机 领域 已 有 较 深入 的 研究 ， 但 是 其 中 大 多 数 。” ”对 网 络 重 构 和 结构 功能 优化 也 有 重要 的 应 用 价值 。 例 如 对 
| 对 静态 网 络 ， 而 时 序 链 路 预测 方法 可 以 利用 网 络 的 历史 信 ”机 场 网 络 数 据 进 行 重建 ， 网 络 中 可 能 会 有 些 自 相 矛 盾 的 数 


有 向 动态 网 络 中 基于 模 体 演化 的 链 路 预测 方法 
ROL, 刘 群 


(重庆 邮电 大 学 计算 智能 重庆 市 重点 实验 室 , 重庆 400065) 


摘 E: 以 往 传统 的 链 路 预测 方法 大 多 数 针对 无 向 网 络 ， 而 实际 上 大 多 数 社交 网 络 是 有 向 的 ， 并 且 没 有 考虑 网 络 中 同 
一 节点 对 之 间 的 重复 边 以 及 微观 演化 信息 ， 因 此 不 能 较 好 地 解决 有 向 动态 网 络 中 的 链 路 预测 问题 。 针 对 有 向 网 络 ， 将 
节点 对 之 间 的 重复 边 信 息 转换 为 该 节点 对 之 间 连 边 的 权 值 ; 接着 采用 了 基于 三 元 组 模 体 的 演化 模型 ， 对 滑动 窗口 中 相 
邻 时 间 片 的 模 体 转换 概率 进行 统计 后 ,采用 指数 加 权 滑 动 平 均 法 对 其 进行 时 序 分 析 得 到 不 同 模 体 转换 概率 的 预测 矩阵 ， 
进而 使 用 该 矩阵 对 网 络 中 的 链 边 进行 预测 。 这 不 仅 充分 利用 了 网 络 微观 演化 信息 ， 而 且 解决 了 动态 网 络 中 重复 边 的 问 
题 。 最 后 对 实验 结果 进行 分 析 发 现 ， 在 高 全 局 聚 类 系数 高 平均 度 的 网 络 中 AUC 相 比 Triad Transition Matrix 方法 提高 
了 近 0.01, 而 相 比 Common Neighbor 方法 提高 更 多 。 因 此 , 所 提 方 法 能 够 较 好 地 应 用 网 络 微观 演化 信息 进行 链 路 预测 。 
关键 词 : 时 序 链 路 预测 ; 有 向 网 络 ; 模 体 演 化 ; 时 序 分 析 
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Link prediction method based on motif evolution in directed dynamic networks 


Du Fan, Liu Qun 
(Chongqing Key Laboratory of Computational Intelligence, Chongqing University of Posts & Telecommunication, Chongqing 
400065, China) 


Abstract: In the past, most of the traditional link prediction methods are oriented to the undirected network, in fact, most social 
networks are directional, and do not consider the duplication between the same node pair and the microscopic evolution 
information in the network, therefore they can not solve Link prediction in directed dynamic networks better. This paper focused 
on the directional network, the repeated edge information between the pair of nodes is transformed into the weight of the edge 
between the pair of nodes, then used the evolution model based on the triad motif, calculate the motif transformation probability 
matrix between the adjacent time slice in the move window, the probability matrix be analyzed by exponentially weighted 
moving average, and then it used the matrix to predict the chain edge in the network. This method not only makes full use of the 
network micro evolution information, but also solves the problem of overlapping edges in dynamic network. Experiments show 
that this method can get better results than Common Neighbor, Triad Transition Matrix and other methods in network with high 
Global Clustering Coefficient and high Average Degree. Therefore, this method can apply the network microscopic information 
to the link prediction better. 
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在 研究 与 生产 环境 中 ， 链 路 预测 有 非常 多 的 用 途 。 例 
在 生物 蛋白 质 互 助 网 络 研究 中 ， 为 降低 成 本 ， 可 以 用 链 路 
也 可 
来 推断 两 个 用 户 之 间 有 多 大 可 能 成 为 好 友 ， 
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E 测 网 络 中 将 会 产生 的 边 。 链 路 预测 就 可 能 对 其 进行 纠正 。 链 路 预测 在 复杂 网 络 理论 
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如 ， 

预测 
以 在 
从 而 
而 帮助 人 们 更 好 地 理解 网 络 所 对 应 的 复杂 系统 的 结构 生成 和 演 进行 推荐 。 另 外 在 文献 [1] 所 提出 的 对 网 络 中 错误 连 边 的 预测 ， 
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方面 同样 具有 巨大 价值 ， 它 可 以 帮助 人 们 认识 复杂 网 络 演化 的 ”组 模 体 的 转换 概率 信息 得 到 三 元 组 转换 概率 矩阵 (TTM WERE) 
机 制 ， 每 一 种 网 络 演化 机 制 里 可 能 蕴涵 着 一 种 精确 的 链 路 预测 。 ”进行 链 路 预测 ,并 且 取 得 了 较 好 的 结果 。 文 献 [20] 在 文献 [19] 的 


方法 ， 而 每 一 种 优秀 的 链 路 预测 方法 ， 也 可 能 揭示 了 一 种 网 络 基础 上 ， 用 三 阶 张 量 分 解 的 方法 计算 三 元 组 转换 概率 矩阵 ， 

演化 机 制 所 。 日 在 进行 链 路 预测 时 考虑 三 元 组 的 重要 性 指标 。 因 此 ， 结 合 网 
目前 比较 成 熟 的 静态 链 路 预测 方法 有 基于 相似 性 的 链 路 预 络 模 体 演化 对 边 的 连接 进行 预测 是 一 个 可 行 的 方向 。 

测 方法 , 如 CN(common neighbor), Salton, Jaccard, AA (adamic 但 是 文献 [19] 的 方法 没有 做 充分 的 时 序 分 析 , 而 文献 [20] 所 

adar) 指标 等 。 文 献 [3] 提 出 了 一 种 基于 蚁 群 算法 的 链 路 预测 方 提 方 法 没有 考虑 到 网 络 中 可 能 存在 的 重复 边 问题 ， 并 且 该 方法 


法 。 此 外 ， 还 有 基于 最 大 似 然 估计 的 层次 结构 模型 以 及 随机 分 。 对 无 向 图 进行 研究 ， 而 现实 中 的 社交 网 络 数据 大 多 是 有 向 图 ， 
块 模型 。 文 献 [4] 提 出 了 一 种 基于 随机 分 块 模型 的 方法 进行 链 路 ”如 facebook 评论 墙 网 络 或 者 wiki 的 提问 回答 网 络 ， 必 定 是 ! 
预测 。 文 献 [5] 将 边 的 存在 与 否 看 成 边 的 一 种 属性 ， 将 链 路 预测 个 用 户 到 另 一 个 用 户 。 为 了 充分 利用 网 络 微观 演化 信息 ， 并 
问题 转变 为 边 的 属性 预测 问题 。 文献 [6] 对 复杂 网 络 的 链 路 可 预 。 且 考 虑 网 络 中 重复 边 ， 本 文 对 有 向 动态 网 络 进行 研究 ， 提 出 
测 性 问题 进行 了 探讨 ， 并 提出 了 一 种 基于 高 阶 路 径 的 链 路 预测 。 MELP(motif evolution link prediction) 算 法 进行 链 路 预测 ， 使 用 


算法 。 文 献 [7] 针 对 无 法 获取 属性 标签 的 异 质 网 络 ， 提 出 了 一 种 ”指数 滑动 平均 的 方法 计算 三 元 组 转换 概率 矩阵 ， 并 考虑 网 络 中 
包含 三 层 图 模型 的 学 习 和 推理 算法 。 针 对 异 质 网 络 ， 文 献 [8] 还  ” 边 的 权重 与 局 部 的 结构 信息 。 在 facebook 网 络 中 ， 本 文 方法 较 
提出 了 一 种 基于 节点 度 、 共 同 邻 居 以 及 Katz 三 种 指标 的 复合 指 TTM 方法 在 时 间 窗 口 宽度 为 20 时 其 AUC 有 0.01 的 提升 ， 但 
标 ， 去 预测 科学 家 合作 网 络 的 新 的 关系 的 形成 。 是 较 CN 方法 有 近 0.7 的 提升 。 在 mathoverflow 网 络 中 本 文 方 

以 上 方法 虽然 在 静态 网 络 中 能 取得 较 好 的 结果 ， 它 们 都 没 ”法 AUC 也 有 提升 ， 但 是 没有 在 facebook 网 络 中 显著 ， 经 分 析 


有 将 网 络 的 历史 演化 纳入 考虑 范围 ， 但 是 现实 世界 中 的 网 络 大 ”主要 是 因为 算法 对 不 同 拓扑 结构 的 网 络 的 适应 性 不 同 。 

多 是 随时 间 变 化 的 ， 为 此 ， 也 有 大 量 文献 从 网 络 演化 的 角度 去 1 ”相关 概念 

进行 研究 。 文 献 [9] 对 网 络 动态 演化 进行 了 量化 研究 。 文 献 [10] 

将 时 序 网 络 按时 间 窗 口 分 片 ， 然 后 对 每 个 时 间 窗 口内 的 网 络 图 1.1 问题 描述 

进行 静态 链 路 预测 ， 最 后 将 预测 结果 看 做 一 个 时 间 序 列 ， 并 对 本 文 所 解决 问题 可 做 如 下 描述 : 随时 间 变 化 的 有 向 带 权 无 
其 进行 时 间 序 列 分 析 。 文 献 [10] 分 别 比较 了 MA (moving P28 G=(gi.g2.gs,...gr)H T 个 时 间 片 组 成 ， 每 一 个 快照 包含 
average) 、Av (average) 、RW (random walk) 、LR (linear 时 序 网 络 中 相同 时 间 间 隔 内 的 信息 。 己 知 时 间 片 g1 到 时 间 片 gt 
regression) 等 几 种 时 间 序 列 预测 模型 ， 发 现 LR 预测 模型 总 体 。 ”的 拓扑 结构 ， 本 文 需要 解决 的 就 是 ， 给 出 一 种 链 路 预测 方法 ， 
上 优 于 其 他 几 种 模型 。 文 献 [11] 提 出 了 一 种 进化 算法 对 网 络 中 为 时 间 片 ge 中 的 任意 有 序 节点 对 赋予 一 个 分 数值 ， 该 分 数值 
的 拓扑 特征 和 属性 特征 进行 整合 ， 以 提高 链 路 预测 精度 。 文 献 ” 越 大 ， 则 表示 两 节点 之 间 越 有 可 能 产生 连 边 。 

[12] 考 虑 链 路 预测 面临 正 负 样 本 不 均衡 的 问题 ， 提 出 了 一 种 基 ”1.2 模 体 理论 

于 半 监 督学 习 的 链 路 预测 方法 。 文 献 [13] 对 一 个 时 间 片 的 网 络 模 体 (motifj)， 也 就 是 网 络 的 基本 子 结构 ， 最 初 在 生物 学 里 
图 做 静态 链 路 预测 后 ， 与 其 后 一 时 间 片 的 网 络 图 做 比较 ， 并 计 ” 表示 蛋白质 网 络 中 最 基本 的 功能 模块 ， 这 一 概念 也 可 以 应 用 在 
算出 每 次 链 路 预测 的 误差 值 ， 最 后 对 误差 序列 做 时 序 分 析 ， 得 。 复杂 网 络 中 。 三 元 组 是 网 络 中 最 简单 的 模 体 , 由 三 个 节点 组 成 。 

到 最 终 的 预测 误差 ， 用 其 来 修正 最 终 链 路 预测 结果 ， 以 提高 链 “对 于 有 向 图 ， 可 以 用 16 种 三 元 组 模 体 2 进行 表示 ， 如 图 1 所 
路 预测 精度 。 文献 [14] 提 出 一 种 整合 网 络 的 时 序 信息 、 社 区 结构 R 图 中 标注 的 ID 与 名 称 有 唯一 性 , 在 本 文 的 其 他 章节 将 会 用 
以 及 节点 中 心性 的 动态 网 络 链 路 预测 算法 。 文 献 [15] 使 用 基于 到。 
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相似 性 与 随机 游 走 的 方法 进行 链 路 预测 。 文 献 [16] 提 出 了 一 个 P 
多 维 时 序 的 模型 ， 其 在 vector auto-regression(VAR) 模 型 的 基础 vA f A 
© © © O O to] 
上 ， 在 时 序 模型 中 结合 拓扑 矩阵 ， 并 与 时 间 演 化 预测 链接 同时 1-008 2-012 8-102, 4-021 
进行 , 可 以 用 来 预测 重复 的 链接 的 发 生 就 像 预测 新 的 链接 一 样 。 o R © 
上 述 这 些 方法 各 有 优 劣 ， 但 是 都 没有 考虑 到 网 络 中 的 微观 PAN i © oo 
Ci esi 5 -021U 6-021C 7-111D 8-111U 
结构 对 网 络 演化 的 影响 。 模 体 (motif) 是 非常 重要 的 一 种 网 络 微 o 
观 结构 ， 网 络 模 体 演化 作为 网 络 微观 演化 的 一 种 ， 是 网 络 演化 AN i \ VA 
"a o é 
分 析 的 重要 组 成 部 分 。 文献 [17] 研 究 表 明 , 网 络 模 体 的 演化 规律 9 - 030T 10 - 030C 11-201 12 - 120D 
可 以 很 大 程度 地 揭示 网 络 结构 特征 的 变化 。 文 献 [18] 提 出 了 一 ° 
种 基于 网 络 中 的 模 体 富 集 信 息 的 聚 类 方法 ， 在 秀丽 隐 杆 线虫 神 is Ls A A 
、 13 - 120U 14 - 120C 15 -210 16 - 300 
经 元 网 络 上 应 用 该 方法 发 现 了 由 20 is 经 元 组 成 的 聚 类 ， 该 


图 1 16 种 三 元 组 模 体 


聚 类 展示 了 瞬 眼 调节 器 被 调控 的 一 种 途径 。 文 献 [19] 挖 掘 三 元 
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这 些 不 同 的 模 体 在 网 络 的 演化 中 有 着 重要 的 作用 ， 本 文 所 
提 方 法 的 主要 思想 是 利用 各 三 元 组 模 体 之 间 的 转换 概率 来 进行 
链 路 预测 。 

对 于 一 个 网 络 中 的 任意 由 三 个 点 组 成 的 节点 集 ， 可 以 称 为 
一 个 三 元 组 模 体 m，m 必定 为 图 1 中 所 示 的 16 中 模 体 类 型 之 
一 ， 即 为 mtfi 的 一 个 实例 (mtfi 表 示 第 i 类 三 元 组 模 体 )。 网 络 的 
演化 过 程 可 以 看 做 模 体 的 不 断 转换 。 对 于 三 个 相互 之 间 没 有 连 
边 的 节点 (ab,c) 若 在 演化 过 程 中 ， 产 生 一 条 边 e(a,b)， 这 个 过 程 
可 表示 为 


mtf,,, 一 mtfu， 

即 三 元 组 (ab,c) 由 模 体 类 型 003 转换 为 模 体 类 型 012 。 在 此 
基础 上 ， 就 可 以 描述 网 络 的 所 有 演化 。 本 文 对 网 络 中 所 有 模 体 
类 型 的 转换 作 统 计 ， 并 计算 各 模 体 类 型 之 间 转 换 的 概率 
P[mtfi->mtfi]( 即 为 模 体 类 型 i 转换 为 模 体 类 型 j 的 概率 )， 这 个 
概率 可 以 看 做 目标 网 络 的 一 个 演化 特征 。 

例如 ， 对 于 图 1 中 的 模 体 021D 与 模 体 030T， 通 过 模 体 转 
换 概率 计算 方法 经 过 对 其 在 某 一 网 络 中 的 历史 数据 进行 统计 ， 
发 现 模 体 021D 到 030T 的 转换 概率 非常 高 。 那 么 对 于 该 网 络 中 
t 时刻 一 个 模 体 为 021D 的 三 元 组 ， 可 以 知道 其 在 tH 时 刻 ， 转 
换 为 030T 的 概率 就 会 非常 高 , 而 从 图 1 可 知 , 由 021D 到 030T 
需要 生成 一 条 边 ， 那 么 就 可 以 依据 上 述 方法 预测 这 条 新 连接 边 
出 现 的 可 能 性 较 大 。 

1.3 ”指数 加 权 滑 动 平均 法 

指数 加 权 滑 动 平 均 法 
average) 5 是 一 种 时 间 序 列 预测 方法 。 滑 动 平均 法 (moving 
average) [3 主要 思想 是 依据 一 个 时 间 序 列 未 来 可 能 出 现 的 值 序 
列 与 较 近 时 期 的 历史 观测 值 序列 具有 一 定 的 相关 性 关系 ， 进 而 
通过 取 与 预测 期 相 邻 的 几 个 历史 观测 数据 的 数值 平均 值 作为 未 
来 时 间 序 列 的 预测 值 ， 得 到 预测 结果 。 例 如 ， 假 设 数值 时 间 序 
列 X=(xux2….x0， 需 要 预测 t+] 时 刻 的 值 ， 公 式 如 下 : 


> 


(exponentially weighted moving 


m 


1 
MA(t+1)=— (3, tt) (1) 


其 中 : MA(t+ 1) 表示 t+] 时 刻 的 预测 平均 值 。 

站 数 加 权 滑 动 平均 法 是 滑动 平均 法 的 改进 ， 它 既 有 滑动 平 
均 法 的 优点 ， 又 减少 了 数据 的 存储 量 。 对 于 上 述 序列 XxX， 使 用 
指数 加 权 平 均 法 计算 t+ 时 刻 的 预测 平均 值 的 公式 如 下 : 

EWMA(t +1) = ax, + (1—a@) EWMA(t) (2) 
Hp: EWMAC +1) A tl 时 刻 的 预测 平均 值 ，EWMA(?) A t 
刻 的 预测 平均 值 ，% 为 + 时 刻 的 实际 值 ; a 为 平滑 系数 。 
1.4 连 边 权 值 

动态 社交 网 络 往往 含有 重复 边 ， 而 本 文 将 两 节点 间 重 复 边 
的 多 少 看 做 其 关系 的 强 弱 程度 。 某 条 边 重 复出 现 的 次 数 越 多 ， 
那么 这 条 边 所 代表 的 关系 越 强 ， 所 以 算法 开始 前 ， 可 以 对 数据 
进行 如 下 预 处 理 : 对 于 网 络 中 的 重复 边 el,e2...en， 只 保留 第 
次 出 现 的 边 e1， 并 将 该 边 所 出 现 的 次 数 n 作为 边 e1 的 权 值 h， 
这 个 权 值 就 代表 着 两 点 之 间 的 联系 的 强 弱 程度 。 


il 


| 


2 ”算法 设计 
2.1 模 体 转换 概率 

本 文 主要 研究 基于 模 体 演化 的 有 向 动态 网 络 的 链 路 预测 问 
题 ， 提 出 了 一 种 链 路 预测 的 MELP 算法 。 该 算法 在 TTM. 
法 的 基础 上 ， 采 用 指数 加 权 滑 动 平均 法 进行 时 序 预测 ， 并 且 考 
虑 了 网 络 中 的 重复 边 信 息 。 
本 算法 首先 对 数据 集 按照 某 一 时 间 跨 度 划 分 为 工 个 时 间 片 ， 
然后 对 相 邻 两 时 间 片 之 间 的 三 元 组 模 体 进行 统计 ， 并 计算 模 体 
转换 概率 。 从 图 1 可 以 看 出 ,三 元 组 模 体 类 型 总 共有 16 种 ， 因 
此 本 文 定义 一 个 16x16 的 矩阵 来 描述 相 邻 时 刻 不 同 三 元 组 模 体 
类 型 的 转换 概率 称 为 模 体 转换 概率 矩阵 MTM(motif transition 
matrix)， 该 矩阵 行 标 和 列 标 分 别 对 应 16 种 三 元 组 模 体 , 其 中 的 
元 素 表 示 该 时 刻 行 标 对 应 模 体 转换 到 列 标 对 应 模 体 的 概率 ， 该 
值 为 


m,,; = Pong lt > mtf lt + 1) (3) 

其 中 : mf KR t A i 类 三 元 组 模 体 ， my 表示 从 t 时 刻 
到 t+] 时 刻 第 i 类 三 元 组 模 体 转换 到 第 j 类 三 元 组 模 体 的 概率 ， 
即 为 对 应 时 刻 MTM WRES i 行 第 j 列 的 元 素 。 转 换 概率 矩阵 
计算 的 算法 描述 如 算法 1 所 示 。 

算法 1 ”转换 概率 矩阵 计算 

输入 : t+1 时 刻 的 图 \ G, t 时 刻 的 图 preG。 
输出 : 16x16 的 转换 概率 矩阵 MTM. 
1 初始 化 MTM; 


2 for EACH v in G do 

3 vnbrs = get_neighbors(v); //vnbrs 包含 与 节点 v 相 邻 的 所 有 
节点 

4 for EACH u in vnbrs if u <= v then begin 

5 neighbors = vnbrs | get_neighbors(u) - {u, v}; 
//neighbors 包含 与 节点 u, v 相 邻 的 所 有 节点 

6 if 边 (v,，u) 与 (u，v) 同 时 存在 于 图 6 


7 统计 模 体 102 到 102, 012 到 102 及 003 到 102 的 转换 数量 ; 


8 elseif 
9 统计 模 体 812 到 012 及 003 到 012 的 转换 数量 ; 
10 endif 


11 for each w in neighbors if u <wor (v <wx< uand v 
not in get_neighbors(w)) then begin//get_neighbors(w) 表 示 
与 w 相 邻 的 所 有 节点 


get_triads_name(preG, v, u, w); 


12 mif,[t] = 


//get_triads_name(preG,v,u,w) 获取 前 一 时 间 段 的 图 preG 中 


(Vv,u,w) 所 组 成 的 三 元 组 的 模 体 名 称 


13 mif, [t+1] = 


get_triads_name(G, v, u, w); 


//get_triads_name(G,v,uw) 获 取 当 前 时 间 段 的 图 G 中 (v,u,w) 所 组 


成 的 三 元 组 的 模 体 名 称 
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14 mmi mif |t] Emi [t+1]] += 1 


15 end 
16 end 
17 end 
18 将 MTM 矩阵 每 个 元 素 除 以 该 元 素 所 在 行 的 元 素 之 和 得 到 最 终 的 转换 
概率 矩阵 MTM 
应 用 算法 1 得 到 所 有 相 邻 时 间 片 之 间 的 转换 概率 矩阵 ， 依 
次 为 MTMI，MTM2?，…，MTMTr1， 如 图 2 所 示 。 


图 2 ”转换 概率 矩阵 预测 


本 文 定义 一 个 三 元 组 模 体 转换 概率 预测 矩阵 PMTM, 矩阵 


中 元 素 值 为 


mi = EWMAs, ,) (4) 
其 中 : EWMA(s, )) 表示 对 时 间 序 列 $;,) 作 指 数 加 权 滑 动 平均 预 

测 。 依 次 取 和 矩阵 第 i 行 第 j 列 的 值 组 成 时 间 序 列 : 
Sij = (Mi jay je Mya.) (5) 

2.2 连 边 分 数 计算 

经 过 时 间 序 列 分 析 后 得 到 三 元 组 模 体 转换 概率 预测 矩阵 
PMTM。 对 于 训练 集 为 (Ti,T2,…TAT)， 测 试 集 为 Tar 的 情况 。 
PMTM 可 以 理解 为 通过 对 历史 信息 进行 时 间 序 列 分 析 得 到 网 
络 的 AT 时 刻 到 ATH 时 刻 的 三 元 组 模 体 转换 概率 矩阵 的 预测 
值 。 


一 个 节点 对 (v,u)， 有 可 能 属于 多 个 三 元 组 模 体 。 如 图 3 所 
示 , 节点 对 (vu 可 以 属于 三 元 组 (wul),(vwu2), 也 可 以 属于 (wu,3) 
等 ， 本 文中 只 考虑 与 v 或 u 相 邻 的 节点 集 {12,3,4,5} 中 的 元 素 
与 (wu 所 组 成 的 三 元 组 模 体 ， 而 不 考虑 其 他 与 v 和 nu 不 相 邻 的 
点 ， 如 6、7 两 点 。 


O © 
©. 
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图 3 一 个 节点 对 ， 可 能 属于 多 个 三 元 组 模 体 


对 于 一 个 三 元 组 (wu3)， 在 v Su 未 连 边 之 前 该 三 元 组 模 
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体 属 于 图 1 中 的 第 6 个 模 体 , 称 之 为 021C。 如 果 该 节点 对 产生 
连 边 (wu， 则 该 三 元 组 模 体 转换 为 图 1 中 的 第 9 个 模 体 ， 命 名 
为 030T; 如 果 产 生 连 边 (uv), 则 转换 为 图 1 中 的 第 10 个 模 体 ， 
称 之 为 030C; 如 果 两 个 方向 的 连 边 同 时 出 现 则 转换 为 图 1 中 的 
第 14 个 模 体 ， 称 之 为 120C。 

由 于 在 计算 节点 对 连 边 分 数 时 ， 对 连 边 分 数 产生 影响 的 每 
一 个 三 元 组 内 的 边 具 有 不 同 的 权 值 ， 而 权 值 代表 着 这 条 边 的 重 
要 程度 ， 所 以 每 个 三 元 组 对 连 边 具有 不 同 的 影响 力 。 因 此 ， 根 
据 权 值 来 定义 连 边 影响 因子 。 


edge(v,u.w) 


Saas lle (6) 


Tt 


i 


其 中 : edge(v,u,w) 为 三 元 组 (wuw) 内 的 所 


TARA; h 


为 边 i 的 权 值 。 连 边 影响 因子 越 大 ， 说 明 该 三 元 组 对 节点 对 连 
边 贡 献 越 大 。 由 此 , 将 式 CO) 代入 式 (7), 可 以 根据 矩阵 PMTM 
计算 得 到 ATH 时 刻 每 个 节点 对 的 连 边 分 数值 : 


nbors(v,u) 


`X Sw x PMTM [wNv， Nara] (7) 


w 


score(v,u) = 


其 中 : Nar AAT 时刻 三 元 组 (wuw) 的 模 体 名 ;Nar NAT +1 
时 刻 三 元 组 (vu,w) 的 模 体 名 ; nbors(v,w) 为 节点 vu 的 邻 
自 


居 贡 点 


aur 
o 


3 ”实验 数据 


本 文采 用 四 个 社交 网 络 数据 集 对 算法 进行 分 析 ， 这 些 社交 
网 络 通过 对 象 间 的 互动 均 构 成 了 有 向 网 络 ， 而 且 包 含 两 节点 间 
连 边 时 间 序 列 信息 ， 所 以 是 动态 的 有 向 网 络 。 本 文 将 选择 一 部 
分 边 作 为 训练 集 ， 一 部 分 作为 测试 集 ， 然 后 采用 链 路 预测 方法 
对 测试 集中 的 边 进行 预测 ， 以 验证 本 文 所 提 方 法 的 有 效 性 。 
Facebook-wall29 数 据 集 是 Facebook 在 美国 新 奥尔良 地 区 长 达 
1561 天 的 用 户 留 言 版 记录 ， 该 数据 集 包 含 三 个 属性 ,分 别 表示 
留言 者 、 被 留言 者 与 以 UNIX 时 间 戳 的 形式 保存 的 留言 时 间 ; 
sx-askubuntu? 144m 42% askubuntu 网 站 用 户 关 于 ubuntu 的 问 
答 数 据 , 时 间 跨 度 为 2613 天 , 包含 三 个 属性 , 分 别 是 回答 者 、 
提问 者 以 及 UNIX 时 间 堆 形式 表示 的 回答 时 间 ; sx- 
mathoverflow[2] 数 据 集 是 Math Overflow 网 站 的 用 户 问 答 数 据 ， 
时 间 跨 度 为 2 350 天 ， 该 数据 集 所 包含 的 属性 与 上 一 数据 集 基 
本 一 致 。 数 据 具 体 参 数 如 表 1 所 示 。 表 中 动态 边 数 是 包含 重复 
边 的 数据 集中 的 所 有 边 数 ， 而 静态 边 数 是 指 除 去 所 有 重复 的 边 
后 数据 集中 所 包含 的 边 数 。 

表 1 实验 数据 参数 


Sx-askubuntu 


Facebook-wall Sx-mathoverflow 


节点 数 45813 159316 24818 
动态 边 数 876993 964437 506550 
静态 边 数 264004 596933 239978 
时 间 跨 度 1561day 2613day 2350day 
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4.1 实验 设计 

为 测试 算法 可 行 性 ， 本 文 在 上 述 数据 集 上 进行 实验 。 实 验 
程序 采用 Python 编写 ， 运 行 环境 为 64 位 Win10 系统 。 

为 了 全 面 验证 本 文 所 提 方 法 的 有 效 性 ， 本 节 在 上 述 三 个 实 
际 数据 集 上 对 CN、TTMII 以 及 本 文 所 提出 的 MELP 算法 进行 
对 比 。 由 于 AUC(area under the receiver operating characteristic 
curve) 是 从 整体 上 衡量 算法 的 精确 度 ， 它 实际 上 是 指 
ROC(receiver operating characteristic) 曲 线 下 的 面积 。 在 实际 计算 
中 ， 可 以 采用 抽样 比较 的 方法 得 到 近似 值 ， 即 每 次 从 测试 集中 
随机 选取 一 条 边 ， 再 从 不 存在 的 边 集合 中 随机 选择 一 条 。 如 果 
前 者 分 数值 大 于 后 者 就 加 1 分 ， 如 果 两 者 分 数值 相等 就 加 0.5 
分 ， 所 以 ， 它 也 可 以 理解 为 在 测试 集中 的 分 数值 有 比 随 机 选择 
的 一 个 不 存在 的 边 的 分 数值 高 的 概率 。 大 多 数 时 序 链 路 预测 相 
关 的 文献 中 都 采用 AUC 作为 评价 指标 ， 因 此 本 文 实验 中 也 采 
| AUC 值 作 为 算法 评价 指标 。 在 计算 AUC 值 时 ， 采 用 滑动 窗 
口 的 方法 确定 训练 集 与 测试 集 : 先 将 数据 按时 间 间 隔 分 片 ; 然 
后 确定 时 间 窗 口 AT， 选 取 时 间 片 Ti 至 Tar 为 训练 集 ，TAr+l 为 
测试 集 ， 并 计算 AUC; 之 后 将 测试 集 与 训练 集 依次 后 移 一 个 时 
间 片 ， 再 次 进行 AUC 计算 ; 最 终 可 以 得 到 一 个 AUC 序列 ， 该 
序列 长 度 为 n-AT，n 为 时 间 片 数量 。 
4.2 实验 结果 及 分 析 

下 面 先 将 时 间 窗 口 宽度 设置 为 30。 图 4 为 facebook 数据 集 
AUC 计算 结果 。 可 以 看 到 MELP 算法 在 facebook 数据 集 的 表 
现 明显 优 于 另外 两 种 算法 。 而 在 mathoverflow 数据 集 上 MELP 
算法 的 表现 只 略 优 于 TTM 算法 ， 如 图 5 所 示 。 而 在 ubuntu 数 
据 集 上 (图 6)，MELP 算法 的 表现 并 不 如 TTM 算法 但 还 是 大 大 
MRF CN. 

WY EMEI TERLER, TAEA EI E at A 
宽度 下 本 文 算法 的 表现 , 下 面 的 实验 分 别 取 时 间 窗 口 宽度 为 20 
和 45， 如 图 7 一 12 所 示 。 
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图 $ mathoverflow 数据 集 时 间 窗 口 为 30 时 AUC 计算 结 
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图 7 facebook 数据 全 
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图 8 mathoverflow 数据 集 时 间 窗 口 为 20 时 AUC 计算 结 
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图 9 ubuntu 数据 集 时 间 窗 口 为 20 时 AUC 计算 结果 
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图 12 ubuntu 数据 集 时 间 窗 口 为 45 时 AUC 计算 结果 


为 了 更 直观 地 看 到 结果 , 将 通过 滑动 窗口 计算 得 到 的 AUC 
序列 取 平 均值 ， 如 表 2 所 示 。 
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表 2 AUC 平均 值 


data Sets time window CN TIM MELP 
20 0.63466013986 0.690242992424 0.700255128205 
facebook 30 0.656097608696 0.709551391304 0.71752626087 
45 0.642511057692 0.675863671875 0.680392307692 
20 0.601575749674 0.856372881356 0.859170143416 
mathoverflow 30 0.622039673469 0.870864612245 0.873813510204 
45 0.645514819005 0.882094025735 0.88521979638 
20 0.524827315542 0.666780548469 0.667061067504 
ubuntu 30 0.526036153846 0.681565 0.679561410256 


45 0.531397596154 0.705387630208 0.702055128205 


从 表 中 可 看 到 , MELP 算法 在 facebook 与 mathoverflow 数 
据 集中 都 取得 了 更 好 的 结果 ; 而 在 ubuntu 数据 集中 ， 只 有 在 时 
间 窗 口 宽度 为 20 的 情况 下 MELP 算法 才 优 与 另外 两 种 算法 ， 
所 以 整体 来 看 ，MELP 算法 比 CN 与 TTM 更 有 效 。 

另外 ， 从 表 2 中 可 以 发 现 ，mathoverflow 与 ubuntu 两 个 数 
据 集 在 所 有 的 算法 下 ， 时 间 窗 口 宽 度 越 大 ， 最 后 结果 越 好 。 在 
facebook 数据 集中 , 时间 窗口 宽度 为 45 时 反而 结果 最 差 , 而 从 
图 4 与 7 可 以 看 出 ， 滑 动 窗口 移动 到 靠近 中 间 位 置 时 AUC 值 
最 大 。 可 以 看 出 ， 随 着 窗口 的 滑动 ， 窗 口中 包含 的 数据 并 不 是 
稳定 地 有 利于 预测 结果 ， 当 时 间 窗 口 过 大 时 ， 每 一 个 窗口 中 包 
含 了 过 多 不 利于 链 路 预测 结果 的 数据 ， 导 致 最 终结 果 较 差 。 而 
从 图 5、6、8、9、11 以 及 图 12 可 看 出 ， 对 mathoverflow 与 
ubuntu 两 个 数据 集 进 行 链 路 预测 的 得 到 的 AUC 结果 较为 稳定 ， 
所 以 时 间 窗 口 宽度 越 大 ， 窗 口中 包含 越 多 有 利于 预测 的 信息 ， 
最 后 结果 就 越 好 。 

接 下 来 从 网 络 拓扑 结构 的 角度 来 分 析 为 什么 会 出 现 上 述 实 
念 结果。 考虑 网 络 的 全 局 聚 类 系数 (global clustering coefficient, 
GCC) 以 及 平均 度 (average degree，AD) 这 两 个 指标 。 


tri 
GCC = - Tl tosed - (8) 
Thtosed + IT Lonen 
2 
AD=£ (9) 
n 


其 中 : trijw 是 网 络 中 闭合 三 角 的 个 数 ，triomw 是 网 络 中 开 三 角 
的 个 数 。 对 于 有 向 网 络 ， 从 图 1 可 以 看 到 , 4、5、6、7、8、11 
号 三 元 组 模 体 是 开 三 角 ， 而 9、10、12、13、14、15、16 号 三 
元 组 模 体 是 闭合 三 角 。 

本 文 对 每 一 个 滑动 窗口 计算 数据 集 的 GCC 与 AD, 并 对 其 
取 平 均值 ， 得 到 表 3。 
从 表 3 中 可 以 很 明显 地 看 出 ,结果 表现 最 好 的 facebook 数 
据 集 在 三 个 时 间 窗 口 大 小 下 都 具有 最 大 的 GCC 与 AD, 而 表现 
最 差 的 ubuntu 数据 集 在 三 个 时 间 窗 口 大 小 下 都 具有 最 小 的 
GCC 与 AD， 由 此 可 知 ， 本 文 所 提出 算法 在 具有 高 全 局 聚 类 系 
数 和 高 平均 度 的 网 络 中 可 以 得 到 更 好 的 效果 。 
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表 3 网 络 特征 
Global Clustering 
Time Window Data Sets Average degree 
Coefficient 

facebook 0.028965 3.586067 

20 mathoverflow 0.009112 1.767520 
ubuntu 0.002469 1.001330 

facebook 0.032154 5.386659 

30 mathoverflow 0.009959 2.625603 
ubuntu 0.002199 1.529206 

facebook 0.031145 8.451428 

45 mathoverflow 0.011126 3.936553 
ubuntu 0.002078 2.280627 

43 算法 时 间 复 杂 度 分 析 
本 文 提出 的 算法 可 分 为 两 个 主要 部 分 : 一 是 三 元 组 模 体 转 


换 概率 矩阵 计算 ， 间 连 边 分 数 的 计算 。 假 设 网 络 的 最 
KEN d, saree 则 模 体 转换 概率 矩阵 计算 时 间 复 杂 
度 为 On*d?)。 对 于 节点 连 边 分 数 计算 ,在 最 坏 情 况 下 为 0(2d)， 
即 为 0(d)。TTM 方法 所 用 的 三 元 组 模 体 检测 方法 为 遍历 检测 
其 时 间 复 杂 度 为 0(m), 在 节点 连 边 分 数 计算 上 , 时 间 复 杂 度 与 
本 算法 一 致 ， 因 此 ， 总 体 来 说 本 文 方法 较 优 。 


二 是 节点 
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时 序 链 路 预测 与 网 络 演 化 关系 密切 ， 将 网 络 的 微观 演化 规 
侍 应 用 到 链 路 预测 可 以 取得 较 好 的 结果 。 并 且 大 多 数 链 路 预测 
方法 是 基于 无 向 图 的 ， 而 社交 网 络 中 某 种 关系 的 发 生 往往 是 有 
方向 性 的 ， 基 于 这 种 关系 形成 的 社交 网 络 是 有 向 网 络 。 因 此 本 
文 将 动态 有 向 网 络 中 的 三 元 组 模 体 的 演化 应 用 于 链 路 预测 中 ， 


=> 


提出 一 种 基于 三 元 组 模 体 演化 的 链 路 预测 方法 ， 并 通过 实验 分 


析 了 时 间 窗 口 对 实验 结果 的 影响 。 

通过 实验 可 以 看 出 ， 使 用 动态 网 络 中 的 模 体 转换 信息 来 进 
行 链 路 预测 是 可 行 的 ， 并 且 可 以 得 到 较 好 的 结果 。 在 facebook 
数据 集中 ， 本 文 所 提 算 法 取得 了 明显 的 优势 。 可 以 证 明 ， 指 数 
加 权 滑 动 平 均 法 ， 用 于 对 模 体 转 换 矩 阵 进行 时 间 序 列 分 析 时 ， 
可 以 提高 预测 结果 。 在 facebook 网 络 中 ， 本 文 方法 较 TTM 方 
法 在 时 间 窗 口 宽度 为 20 时 其 AUC 有 0.01 的 提升 ， 但 是 较 CN 
方法 有 近 0.7 的 提升 ， 在 mathoverflow 网 络 中 本 方法 AUC 也 
有 提升 , 但 是 没有 在 facebook 网 络 中 显著 ; 在 ubuntu 数据 集中 
本 文 所 提 算 法 并 没有 得 出 更 优 的 结果 。 通 过 对 网 络 结构 属性 的 
分 析 ， 可 以 知道 本 算法 在 具有 高 聚 类 系数 高 平均 度 的 网 络 中 表 


现 更 好 。 在 未 来 的 工作 中 ， 本 文 将 会 进一步 分 析 网 络 结构 特点 
对 算法 表现 的 影响 ， 将 社区 理论 应 用 到 本 算法 中 ， 以 期 提高 本 
算法 在 低 全 局 聚 类 系数 低 平 均 度 网 络 中 的 表现 。 此 外 ， 在 以 后 


的 工作 中 ， 仍 需 深入 分 析 三 元 组 演化 规律 ， 将 其 与 社交 网 络 的 
车 础 理论 (如 三 元 闭 包 理论 ) 相 结合 。 最 后 , 本 文 方法 仍 需 进 一 步 
条 低 时 间 复 杂 度 ， 并 且 在 更 多 数据 集 上 测试 算法 的 有 效 怕 
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